近年来,深度学习(DL)方法的流行程度急剧增加,并且在生物医学科学中的监督学习问题中的应用显着增长。但是,现代生物医学数据集中缺失数据的较高流行率和复杂性对DL方法提出了重大挑战。在这里,我们在深入学习的广义线性模型的背景下,对缺失数据进行了正式处理,这是一种监督的DL架构,用于回归和分类问题。我们提出了一种新的体系结构,即\ textit {dlglm},这是第一个能够在训练时在输入功能和响应中灵活地说明忽略和不可忽视的缺失模式之一。我们通过统计模拟证明,我们的方法在没有随机(MNAR)缺失的情况下胜过现有的监督学习任务方法。我们从UCI机器学习存储库中对银行营销数据集进行了案例研究,在该数据集中我们预测客户是否基于电话调查数据订阅了产品。
translated by 谷歌翻译
近年来,深度学习(DL)方法的流行程度大大增加。尽管在图像数据的分类和操纵中证明了其最初的成功,但DL方法应用于生物医学科学中的问题的应用已显着增长。但是,生物医学数据集中缺失数据的较高流行率和复杂性对DL方法提出了重大挑战。在这里,我们在变化自动编码器(VAE)的背景下提供了对缺失数据的正式处理,这是一种普遍用于缩小尺寸,插补和学习复杂数据的潜在表示的流行无监督的DL体系结构。我们提出了一种新的VAE架构Nimiwae,这是第一个在训练时在输入功能中灵活解释可忽视和不可忽视的缺失模式之一。训练后,可以从缺失数据的后验分布中得出样本,可用于多个插补,从而促进高维不完整数据集的下游分析。我们通过统计模拟证明,我们的方法优于无监督的学习任务和插定精度的现有方法。我们以与12,000名ICU患者有关的EHR数据集的案例研究结束,该数据集具有大量诊断测量和临床结果,其中仅观察到许多特征。
translated by 谷歌翻译
我们研究了Levin(1993)所述的动词交替类的程度和句子级预测任务。我们遵循并扩展了Kann等人的实验。(2019年),旨在探测静态嵌入是否编码动词的框架选择性。在单词和句子级别上,我们发现来自PLM的上下文嵌入不仅超过了非上下文嵌入,而且在大多数交替类中的任务上达到了惊人的高精度。此外,我们发现证据表明,PLM的中间层平均比所有探测任务中的较低层都能取得更好的性能。
translated by 谷歌翻译
诸如深度学习之类的复杂预测模型是拟合机器学习,神经网络或AI模型到一组培训数据的输出。这些现在是科学的标准工具。当前一代模型的一个关键挑战是它们是高度参数化的,这使得和解释预测策略变得困难。我们使用拓扑数据分析将这些复杂预测模型转换为代表拓扑视图的图片。结果是可以进行检查的预测的地图。这些方法扩展到跨不同领域的大型数据集,使我们能够检测训练数据中的错误,了解图像分类中的概括,并检查BRCA1基因中可能致病性突变的预测。
translated by 谷歌翻译
本文提出了一种新颖的邻居搜索算法,可实现TPU(Google Tensor处理单元)的峰值性能,超过了最先进的GPU算法,其召回水平相似。所提出的算法的设计是由准确的加速器性能模型的动机,该模型同时考虑了内存和指令瓶颈。我们的算法具有预期召回的分析保证,并且不需要维护复杂的索引数据结构或调整,因此它适用于经常更新的应用程序。我们的工作可在TPU上的Jax和Tensorflow的开源软件包中获得。
translated by 谷歌翻译
有效的沟通需要适应与每个交流伙伴共享的特质共同基础。我们研究了这个问题的特别具有挑战性的实例化:流行的游戏dixit。我们将一轮dixit作为多代理图像参考游戏,在其中(训练有素的)扬声器模型描述了目标图像,以使一个(预审计的)侦听器模型可以从一组干扰器中正确识别它,但另一个听众无法识别它。为了适应这种设置,演讲者必须利用与不同听众共享的共同点的差异。我们表明,在这种对比性的多代理设置中,在剪辑视觉编码器和大型语言模型之间进行基于注意力的适配器会产生与上下文相关的自然语言专业化,而无需直接监督。在一系列受控的实验中,我们表明说话者可以根据各对不同听众的特质优势和劣势来适应。此外,我们显示了说话者专业化对看不见的现实世界数据的零拍传输。我们的实验为复杂的多方设置中的自适应沟通提供了一步,并突出了Dixit等游戏带来的有趣的研究挑战。我们希望我们的工作能够激发创造性的新方法,以适应预处理的模型。
translated by 谷歌翻译
静态机器学习模型的理想化,经过训练并永远部署,这是不切实际的。随着输入分布的变化,该模型不仅会失去准确性,因此减少对受保护类别的偏见的任何约束都可能无法按预期工作。因此,研究人员已经开始探索随着时间的推移保持算法公平性的方法。一项工作重点是动态学习:每批次后重新训练,而另一个工作则介绍了强大的学习,该学习试图使算法与未来所有可能的变化进行鲁棒性。动态学习试图在发生后不久减少偏见,而健壮的学习通常会产生(过于)保守的模型。我们提出了一种预期的动态学习方法,用于纠正算法在发生偏见之前减轻算法。具体而言,我们利用有关下一个周期中人口亚组(例如,男性和女性申请人的相对比率)的相对分布的预期,以确定正确的参数,以实现重要性权衡方法。对多个现实世界数据集的实验的结果表明,这种方法有望预期偏差校正。
translated by 谷歌翻译
我们引入了一种新方法,用于纳米光器设备的逆设计,该方法可以确保由此产生的设计满足严格的长度限制,包括商业半导体铸造厂所需的最小宽度和间距约束。该方法采用了几个概念,从机器学习中,将拓扑优化的问题与严格的长度限制转变为无约束的随机梯度优化问题。具体而言,我们引入了一种有条件的发电机,用于可行设计,并采用直通估计器将梯度反向传播到潜在设计。我们通过设计几个常见的集成光子组件来证明我们方法的性能和可靠性。
translated by 谷歌翻译
制定了具有机器学习模拟(骆驼)项目的宇宙学和天体物理学,通过数千名宇宙的流体动力模拟和机器学习将宇宙学与天体物理学结合起来。骆驼包含4,233个宇宙学仿真,2,049个n-body和2,184个最先进的流体动力模拟,在参数空间中采样巨大的体积。在本文中,我们介绍了骆驼公共数据发布,描述了骆驼模拟的特性和由它们产生的各种数据产品,包括光环,次麦,银河系和空隙目录,功率谱,Bispectra,Lyman - $ \ Alpha $光谱,概率分布函数,光环径向轮廓和X射线光子列表。我们还释放了超过骆驼 - 山姆的数十亿个星系的目录:与Santa Cruz半分析模型相结合的大量N身体模拟。我们释放包含350多个Terabytes的所有数据,并包含143,922个快照,数百万光环,星系和摘要统计数据。我们提供有关如何访问,下载,读取和处理数据AT \ URL {https://camels.readthedocs.io}的进一步技术详细信息。
translated by 谷歌翻译
超越地球轨道的人类空间勘探将涉及大量距离和持续时间的任务。为了有效减轻无数空间健康危害,数据和空间健康系统的范式转移是实现地球独立性的,而不是Earth-Reliance所必需的。有希望在生物学和健康的人工智能和机器学习领域的发展可以解决这些需求。我们提出了一个适当的自主和智能精密空间健康系统,可以监控,汇总和评估生物医学状态;分析和预测个性化不良健康结果;适应并响应新累积的数据;并提供对其船员医务人员的个人深度空间机组人员和迭代决策支持的预防性,可操作和及时的见解。在这里,我们介绍了美国国家航空航天局组织的研讨会的建议摘要,以便在太空生物学和健康中未来的人工智能应用。在未来十年,生物监测技术,生物标志科学,航天器硬件,智能软件和简化的数据管理必须成熟,并编织成精确的空间健康系统,以使人类在深空中茁壮成长。
translated by 谷歌翻译